arxiv：2503.01909v1 [cs.lg] 2025年2月28日__

arxiv：2503.01909v1 [cs.lg] 2025年2月28日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2503.01909v1 [cs.lg] 2025年2月28日

¥ 1.0

热度

变形金刚可以学会在以前看不见的输入/输出域中可靠地执行算法麦克风任务吗？虽然预先训练的语言模型在结合算法推理的基准标记上显示出稳定的准确性，因此，这些结果的可靠性必须具有清除记忆中清洁模型功能功能的能力。在本文中，我们提出了一个算法基准，该基准构成了无限输入域的六个任务，在该域中，我们还可以分离并追踪任务所需的正确，可靠的算法。这使我们能够评估（i）模型的外推能力，以外地观察到的输入类型，包括新的长度，价值范围或输入域，以及（ii）通过其注意图的镜头评估最近模型中功能机制的鲁棒性。我们将公开可用的所有任务和互操作性方法提出。1

添加pdf代下载 VIP点击下载文件